Attention
多头缩放点积注意力机制(Scaled Dot-Product Attention)
\[\text{Attention}(Q, K, V) = \operatorname{softmax}\left(\frac{Q K^\top}{\sqrt{d_k}}\right) V\]
- 输入:
Q - 查询矩阵地址(行优先),形状 \([B, H, L, D]\) 展平。
K - 键矩阵地址(行优先),形状 \([B, H, L, D]\) 展平。
V - 值矩阵地址(行优先),形状 \([B, H, L, D]\) 展平。
batch_size (B) - 批大小。
seq_len (L) - 序列长度。
head_num (H) - 多头数量。
head_dim (D) - 每头通道维数。
QK, softmax_out - 中间缓冲区地址,容量不小于 \(B\times H\times L\times L\)。
core_mask(可选) - 核掩码(仅适用于共享存储版本)。
- 输出:
output - 输出地址(行优先),形状 \([B, H, L, D]\) 展平。
- 支持平台:
FT78NEMT7004
备注
当前实现基于 fp32;输入/中间/输出缓冲区不应重叠。
内存布局为行优先(row-major)。
共享存储版本:
-
void fp_attention_s(float *Q, float *K, float *V, float *output, int batch_size, int seq_len, int head_num, int head_dim, float *QK, float *softmax_out, int core_mask)
C调用示例:
1#include <stdio.h> 2 3int main(int argc, char* argv[]) { 4 int B = 2, L = 128, H = 8, D = 64; 5 float *Q = (float *)0xA0000000; // DDR 6 float *K = (float *)0xA1000000; // DDR 7 float *V = (float *)0xA2000000; // DDR 8 float *O = (float *)0xA3000000; // DDR 9 float *QK = (float *)0xA4000000; // DDR 10 float *SM = (float *)0xA5000000; // DDR 11 int core_mask = 0xff; 12 fp_attention_s(Q, K, V, O, B, L, H, D, QK, SM, core_mask); 13 return 0; 14}
私有存储版本:
-
void fp_attention_p(float *Q, float *K, float *V, float *output, int batch_size, int seq_len, int head_num, int head_dim, float *QK, float *softmax_out)
C调用示例:
1#include <stdio.h> 2 3int main(int argc, char* argv[]) { 4 int B = 1, L = 64, H = 4, D = 32; 5 float *Q = (float *)0x10000000; // L2 6 float *K = (float *)0x10040000; // L2 7 float *V = (float *)0x10080000; // L2 8 float *O = (float *)0x100C0000; // L2 9 float *QK = (float *)0x10100000; // L2 10 float *SM = (float *)0x10200000; // L2 11 fp_attention_p(Q, K, V, O, B, L, H, D, QK, SM); 12 return 0; 13}